---
title: "Greenplum"
date: 2023-05-03T00:40:02+03:00
description: "Заметка о Greenplum"
tags: ["greenplum", "db", "postgresql"]
ShowToc: true
ShowBreadCrumbs: true
draft: false
---

## Определение

[Greenplum](https://www.bigdataschool.ru/wiki/greenplum) – open-source продукт, массивно-параллельная реляционная СУБД для хранилищ данных с гибкой горизонтальной масштабируемостью и столбцовым хранением данных на основе PostgreSQL. Благодаря своим архитектурным особенностям и мощному оптимизатору запросов, Гринплам отличается особой надежностью и высокой скоростью обработки SQL-запросов над большими объемами данных, поэтому эта MPP-СУБД широко применяется для аналитики Big Data в промышленных масштабах.

## Как устроена Greenplum: архитектура и принципы работы

СУБД Greenplum представляет собой несколько взаимосвязанных экземпляров базы данных PostgreSQL, объединенных в кластер по принципу массивно-параллельной архитектуры (Massive Parallel Processing, MPP) без разделения ресурсов (Shared Nothing). При этом каждый узел кластера, взаимодействующий с другими для выполнения вычислительных операций, имеет собственную память, операционную систему и жесткие диски.

![greenplum-cluster](/img/db/greenplum/greenplum-cluster.jpg)

Основные сценария использования в Big Data:

- системы предиктивной аналитики и регулярной отчетности по большим объемам данных;
- построение озер (Data Lake) и корпоративных хранилищ данных (КХД);
- разработка аналитических моделей по множеству разнообразных данных, например, для прогнозирования оттока клиентов (Churn Rate).

Схема общей архитектуры из [Зелено – не молодо: как устроена MPP-СУБД Greenplum](https://bigdataschool.ru/blog/greenplum-architecture.html)

![greenplum-arch](/img/db/greenplum/greenplum-arch.jpg)